We present a method for simultaneously localizing multiple sound sources within a visual scene. This task requires a model to both group a sound mixture into individual sources, and to associate them with a visual signal. Our method jointly solves both tasks at once, using a formulation inspired by the contrastive random walk of Jabri et al. We create a graph in which images and separated sounds correspond to nodes, and train a random walker to transition between nodes from different modalities with high return probability. The transition probabilities for this walk are determined by an audio-visual similarity metric that is learned by our model. We show through experiments with musical instruments and human speech that our model can successfully localize multiple sounds, outperforming other self-supervised methods. Project site: https://hxixixh.github.io/mix-and-localize
translated by 谷歌翻译
从旋转天花板粉丝到滴答时钟,我们听到巧妙地变化的声音随着我们通过场景。我们询问这些环境声音是否传达有关3D场景结构的信息,如果是,它们是否提供了用于多模式模型的有用的学习信号。为学习这一点,我们从各种安静的室内场景中收集配对音频和RGB-D录音的数据集。然后,我们培训估计到附近墙壁的距离的模型,只有一个音频作为输入。我们还使用这些录音来通过自我监督来学习多式式表现,通过培训网络以将图像与其相应的声音相关联。这些结果表明环境声音传达了关于场景结构的令人惊讶的信息,并且它是学习多模峰特征的有用信号。
translated by 谷歌翻译
向量自回旋(VAR)模型已用于描述多个时间序列内部和跨多个时间序列的依赖性。这是一个固定时间序列的模型,可以扩展以允许每个系列的确定性趋势存在。在拟合VAR模型之前,在参数或非参数上逐步降低数据会导致后一部分的更多误差​​。在这项研究中,我们提出了一种称为DeepVarwt的新方法,该方法采用了深度学习方法,以最大程度地估计趋势和依赖性结构。为此目的使用了长期的短期内存(LSTM)网络。为了确保模型的稳定性,我们使用Ansley&Kohn(1986)的转换来实施自回归系数的因果关系。我们提供模拟研究和对真实数据的应用。在仿真研究中,我们使用由真实数据产生的现实趋势函数,并将估计值与真实函数/参数值进行比较。在实际数据应用程序中,我们将该模型的预测性能与文献中的最新模型进行了比较。
translated by 谷歌翻译
旨在使用非常有限的样本识别看不见的类的几个射击分类吸引了越来越多的关注。通常,它被称为公制学习问题。几乎没有射击分类的核心问题是如何学习(1)支持和查询集中图像的一致表示以及(2)在支持和查询集之间的图像的有效度量学习。在本文中,我们表明,这两个挑战可以通过统一的查询支持变压器(QSFormer)模型同时建模。具体而言,提出的QSFormer涉及全局查询支持样品变压器(SampleFormer)分支和局部补丁变压器(PatchFormer)学习分支。 SampleFormer旨在捕获样品在支持和查询集以进行图像表示方面的依赖性。它采用编码器,解码器和交叉注意力,分别对几个射击分类任务的支持,查询(图像)表示和度量学习进行建模。同样,作为全球学习分支的补充,我们采用了局部贴片变压器,通过捕获本地图像贴片的长距离依赖性来提取每个图像样本的结构表示。此外,还提出了一种新型的跨尺度交互式提取器(CIFE)来提取和融合多尺度CNN特征,作为建议的少量学习方法的有效骨干模块。所有模块都集成到统一的框架中,并以端到端的方式进行了训练。在四个流行数据集上进行的广泛实验证明了所提出的QSFormer的有效性和优势。
translated by 谷歌翻译
在线公众舆论通常会迅速而广泛地传播,因此,在很短的时间内,一个小型事件可能会变成巨大的社会危机,并导致信贷或经济方面造成严重的损失。我们提出了一种基于多层索引系统的在线公众舆论危机的方法,以客观地评估事件的影响。首先,从信息生态学的角度来解释在线公众舆论的传播机制。根据该机制,通过相关分析和主成分分析选择了一些评估指数。然后,通过深度学习来创建文本情感的分类模型,以实现索引系统中情感索引的准确量化。最后,基于多层次评估指数系统和灰色相关性分析,我们提出了一种评估在线舆论危机的方法。实时事件的实验表明,这种方法可以客观地评估互联网用户的情感趋势,并在在线公众舆论的不同传播阶段评估危机。意识到在线公众舆论的危机警告并及时阻止危机的进一步传播是有帮助的。
translated by 谷歌翻译
伪标记已被证明是一种有希望的半监督学习(SSL)范式。现有的伪标记方法通常假定培训数据的类别分布是平衡的。但是,这种假设远非现实的场景,现有的伪标记方法在班级不平衡的背景下遭受了严重的性能变性。在这项工作中,我们在半监督设置下研究伪标记。核心思想是使用偏置自适应分类器自动吸收由班级失衡引起的训练偏差,该分类器将原始线性分类器与偏置吸引子配合使用。偏置吸引子设计为适应训练偏见的轻巧残留网络。具体而言,通过双级学习框架来学习偏见吸引子,以便偏见自适应分类器能够符合不平衡的训练数据,而线性分类器可以为每个类提供无偏的标签预测。我们在各种不平衡的半监督设置下进行了广泛的实验,结果表明我们的方法可以适用于不同的伪标记模型,并且优于先前的艺术。
translated by 谷歌翻译
发达的ET(指数平滑或误差,趋势,季节性)方法在状态空间表示中纳入了指数平滑模型家族,已广泛用于自动预测。现有的ETS方法使用信息标准来选择模型选择,通过在适用于给定时间序列的所有模型中选择具有最小信息标准的最佳模型。当应用于大规模时间序列数据时,这种模型选择方案下的ETS方法会遭受计算复杂性。为了解决此问题,我们通过模拟数据上的培训分类器提出了一种有效的ETS模型选择方法,以预测给定时间序列的适当模型组件形式。我们提供了一项模拟研究,以显示模拟数据中提出的方法的模型选择能力。我们根据点预测和预测间隔,对广泛使用的预测竞争数据集M4评估我们的方法。为了证明我们方法的实际价值,我们在每月医院数据集上展示了方法的绩效改进。
translated by 谷歌翻译
近年来,深入学习的蓬勃发展的开花目睹了文本认可的快速发展。但是,现有的文本识别方法主要用于英语文本,而忽略中文文本的关键作用。作为另一种广泛的语言,中文文本识别各种方式​​都有广泛的应用市场。根据我们的观察,我们将稀缺关注缺乏对缺乏合理的数据集建设标准,统一评估方法和现有基线的结果。为了填补这一差距,我们手动收集来自公开的竞争,项目和论文的中文文本数据集,然后将它们分为四类,包括场景,网络,文档和手写数据集。此外,我们在这些数据集中评估了一系列代表性的文本识别方法,具有统一的评估方法来提供实验结果。通过分析实验结果,我们令人惊讶地观察到识别英语文本的最先进的基线不能很好地表现出对中国情景的良好。由于中国文本的特征,我们认为仍然存在众多挑战,这与英文文本完全不同。代码和数据集在https://github.com/fudanvi/benchmarking-chinese-text-recognition中公开使用。
translated by 谷歌翻译
分层分类旨在将对象对类别的层次进行。例如,可以根据订单,家庭和物种的三级层次分类来分类鸟类。现有方法通过将其解耦为几个多级分类任务来常见地解决分层分类。但是,这种多任务学习策略未能充分利用不同层次结构的各种类别之间的相关性。在本文中,我们提出了基于深度学习的统一概率框架的标签层次转换,以解决层次分类。具体地,我们明确地学习标签层次转换矩阵,其列向量表示两个相邻层次结构之间的类的条件标签分布,并且可以能够编码嵌入类层次结构中的相关性。我们进一步提出了混淆损失,这鼓励分类网络在训练期间学习不同标签层次结构的相关性。所提出的框架可以适用于任何现有的深网络,只有轻微的修改。我们尝试具有各种层次结构的三个公共基准数据集,结果证明了我们的方法超出现有技术的优势。源代码将公开可用。
translated by 谷歌翻译
RGB-D图像上的突出对象检测(SOD)是计算机视觉中的主动问题。 RGB-D SOD问题的主要挑战是1)提取RGB的准确特征和杂物背景或图像质量差的深度图像数据,2)探索RGB和深度图像数据之间的互补信息。为了解决这些挑战,我们提出了一种用于RGB-D SOD的新型互变融合网络(MTFNET)。 MTFNET包含两个主要模块,$ i. $,焦点特征提取器(FFE)和相互变压器融合(MTF)。 FFE旨在通过引入新的像素级焦点正则化来引导CNN特征提取器来提取RGB和深度图像的更准确的CNN特征。 MTF旨在深入利用RGB与粗略和精细尺度之间的多模态交互。 MTF的主要好处是它同时对模态和模态的学习进行了学习,因此可以更直接且充分地实现不同方式的通信。六个公共基准的综合实验结果展示了我们提出的MTFNET的优越性。
translated by 谷歌翻译